检索结果

期刊

出版年

关键词

Please wait a minute...

选择:

导出引用
EndNote Ris BibTeX

显示/隐藏图片

Select

1. 基于改进的双向长短期记忆网络的视频摘要生成模型

武光利, 李雷霆, 郭振洲, 王成祥

计算机应用 2021, 41 (7): 1908-1914. DOI: 10.11772/j.issn.1001-9081.2020091512

摘要（554）

PDF （1515KB）（530）

针对传统视频摘要方法往往没有考虑时序信息以及提取的视频特征过于复杂、易出现过拟合现象的问题，提出一种基于改进的双向长短期记忆（BiLSTM）网络的视频摘要生成模型。首先，通过卷积神经网络（CNN）提取视频帧的深度特征，而且为了使生成的视频摘要更具多样性，采用BiLSTM网络将深度特征识别任务转换为视频帧的时序特征标注任务，让模型获得更多上下文信息；其次，考虑到生成的视频摘要应当具有代表性，因此通过融合最大池化在降低特征维度的同时突出关键信息以淡化冗余信息，使模型能够学习具有代表性的特征，而特征维度的降低也减少了全连接层需要的参数，避免了过拟合问题；最后，预测视频帧的重要性分数并转换为镜头分数，以此选取关键镜头生成视频摘要。实验结果表明，在标准数据集TvSum和SumMe上，改进后的视频摘要生成模型能提升生成视频摘要的准确性；而且它的F1-score值也比基于长短期记忆（LSTM）网络的视频摘要模型DPPLSTM在两个数据集上分别提高1.4和0.3个百分点。

参考文献 | 相关文章 | 多维度评价